Conceptos básicos

Probabilidad Es una medida que indica la posibilidad que ocurra un evento. Su valor es un número entre 0 y 1.
Probabilidad Clásica (a priori) Basados en los postudados de Pascal y Fermat sobre los juegos de azar. Característica favorable vs totalidad de ocurrencias
Probabilidad Frecuentista (a postepriori) Es la capacidad para contar el número de repeticiones (frecuencia) de un determinado evento vs la repetición de un proceso, un gran número de veces. Es solo una estimación de P

Conceptos básicos…continuación

Distribución de Probabilidades

Es la probabilidad de ocurrencia de cada valor de una variable aleatoria

\(X_{i}\) \(P_{i}\)
\(x_{1}\) \(p_{1}\)
\(x_{2}\) \(p_{2}\)
\(x_{3}\) \(p_{3}\)
\(x_{n}\) \(p_{n}\)
\(\sum_{i=1}^{n} p_{i}=1\)

Conceptos básicos…continuación

DISTRIBUCIÓN DE PROBABILIDAD DE VARIABLES DISCRETAS

Distribución Binomial

Es una distribución de probabilidad discreta que cuenta el número de éxitos en una secuencia de ensayos o experimientos repetidos muchas veces de forma independiente entre sí con una probabilidad fija “p” de ocurrencia de éxito (ensayos de Bernoulli).

Veamos el siguiente ejemplo:

Un jugador de fútbol tiene un 70% de probabilidades de meter un penalti. Si tira tres penaltis

Llamamos “A” al suceso acertar (éxito) y “B” al fracaso, su suceso contrario

Si nos preguntaran cuál es la probabilidad de acertar exactamente los tres penaltis:

\(P_{(A\thinspace \cup\thinspace A\thinspace \cup\thinspace A )}=0.7*0.7*0.7=0.7^{3}=0.343\)

Por el contrario, si nos preguntaran la probabilidad de fallar los tres penaltis:

\(P_{(B\thinspace \cup\thinspace B\thinspace \cup\thinspace B )}=0.3*0.3*0.3=0.3^{3}=0.027\)

DISTRIBUCIÓN DE PROBABILIDAD DE VARIABLES DISCRETAS

Ahora bien, si nos preguntan: ¿cuál es la probabilidad de que meta o acierte dos penaltis?

Hay 3 posibles soluciones:

  • Meter los dos primeros y fallar el tercero: \(P_{(A\thinspace \cup\thinspace A\thinspace \cup\thinspace B )}=0.7*0.7*0.3=0.7^{2}*0.3=0.147\)

  • Meter el primero, fallar el segundo y meter el tercero: \(P_{(A\thinspace \cup\thinspace B\thinspace \cup\thinspace A )}=0.7*0.3*0.7=0.7^{2}*0.3=0.147\)

  • Fallar el primero y meter los dos siguientes: \(P_{(B\thinspace \cup\thinspace A\thinspace \cup\thinspace A )}=0.3*0.7*0.7=0.7^{2}*0.3=0.147\)

Por tanto, la probabilidad de tener 2 aciertos será la suma de los tres intentos:

\(P_{(2\thinspace aciertos )}=0.147+0.147+0.147=0.441\)

Usando la fórmula de la distribución binomial: \(P_{(x=2)}=\binom{3}{2}*0.7^{2}*0.3^{3-2}=3*0.7^{2}*0.3^{1}=0.441\)

DISTRIBUCIÓN DE PROBABILIDAD DE VARIABLES CONTÍNUAS

Distribución Normal (Gaussiana)

La distribución normal, distribución de Gauss, distribución gaussiana, distribución de Laplace-Gauss o distribución Moivre-Laplace o simplemente normalidad estadística, es una de las distribuciones de probabilidad de variable continua más usada en estadística y en la teoría de probabilidades.

La distribución normal fue presentada por primera vez por Abraham de Moivre en un artículo del año 1733. Sus propuesta fue ampliada por Laplace en su libro Teoría analítica de las probabilidades (1812). Sin embargo, Gauss, afirmaba haber usado el método desde 1794 y realizó importantes contribuciones en el campo de la astronomía y álgebra.

Características de la Distribución Normal

  • Se aplica a variables continuas
  • Es una distribución de tipo simétrica
  • Presenta una forma acampanada
  • Es asintótica al eje de las abscisas

DISTRIBUCIÓN DE PROBABILIDAD DE VARIABLES CONTÍNUAS

Algunos ejemplos de variables contínuas usadas en Antropología Física que siguen el modelo de la normal son:

  • Caracteres morfológicos de individuos como la estatura
  • Dimensiones osteológicas y craneométricas
  • Variables de tipo nutricionales como el consumo en gramos de cierto producto
  • Variables bioquímicas como el colesterol y triglicéridos
  • Cardiovascular como la presión arterial
  • Variables socioéconomicas como el ingreso familiar
  • Varibles de aptitud física como potencia aeróbica o resistencia y fuerza, entre otras.
  • Evaluación de errores cometidos al medir ciertas magnitudes o aplicar ciertos métodos

PROPIEDADES DE LA CURVA NORMAL

SIMETRÍA Se divide en dos mitades iguales. Cada una es imagen de la otra
Altura Máxima La altura máxima de la distribución está en la medía. Media, mediana y moda son el mismo valor.
Área bajo la curva suma UNO La distribución refleja un espacio de probabilidad finita. Debido a su simetría, cada mitad refleja la probabilidad espejo.

PROPIEDADES DE LA CURVA NORMAL

Todos los resultados Posibles Dado que se conoce la probabilidad de toda la distribución, entonces es posible calcular la probabilidad de cada variación posible
Efecto de la curva Los valores más cercanos a la media, tienen mayor probabilidad, mientras que los más alejados, tienen probablidades más bajas
La curva es Asintótica Por tanto, a cada variación se le puede asignar alguna probablidad aunque sea infinitesimalmente pequeña

PROPIEDADES DE LA CURVA NORMAL

Promedio de muestras Si de una población se extraen múltiples muestras, las medias de las medias de las muestras tienden a distribuirse normalmente, siendo esta media muy proxima al parámetro
Media y Desviación Estándar Cualquier distribución normal, se puede construir con la media y desviación estándar. Sin embargo, entre la media y la desviación habrá una proporción constante del área bajo la curva, definidos en ciertos puntos de corte (desviación)

DISTRIBUCIÓN DE PROBABILIDAD DE VARIABLES CONTÍNUAS

Cuando una distribución es normal, se cumplen las siguientes relaciones:

DISTRIBUCIÓN DE PROBABILIDAD DE VARIABLES CONTÍNUAS

Función de Distribución (acumulada) para distribución normal

\[F_{(x)}= \int_{-\infty}^x \frac{1}{\sigma \sqrt{2 \pi}}e^-\frac{1}{2}(\frac{\bar{x}-\mu}{\sigma})\thinspace dx\]

Para evitar el tedioso calculo de la integral, las probabilidades de cualquier variable normal, puede ser calculada mediante la transformación a una normal estandarizada o tipificada, donde la media vale 0 y la desviación típica vale 1.

Para ello, se requiere que cada valor de la variable aleatoria \(X_{i}\) sea transformada en un valor \(Z_{i}\) estandarizado, tipificado o normalizado de la siguiente forma:

\[Z_{i}=\frac{x_{i}-\bar{x}}{s}\]

Afortunadamente programas como R calculan la probablidad de forma directa.

DISTRIBUCIÓN DE PROBABILIDAD DE VARIABLES CONTÍNUAS

Comprobar normalidad de los datos

La normalidad de los datos, supone el uso de muchas pruebas estadísticas paramétricas, como hacer comparaciones ente grupos, generar modelos de estimación o aplicar métodos multivariantes, entre otros.

Por ello es necesario evaluar si los datos cumplen con la condición antes de realizar cualquier análisis.

Método para evaluar la normalidad: gráficos y pruebas estadísticas

Pruebas gráficas:

  1. Histograma –> el más simple, permite apreciar la forma de la distribución
  2. Gráfico Q-Q (quantile-quantil) –> compara los datos con una distribución normal teórica

DISTRIBUCIÓN DE PROBABILIDAD DE VARIABLES CONTÍNUAS

Comprobar normalidad de los datos

Pruebas estadísticas:

  • Son test de significación que comprueban si hay diferencias entre una distribución teórica normal y la distribución observada en los datos
  • La hipótesis nula es la no diferencia con la normal
  • Si la significancia de los tests es > 0.05, se puede asumir la normalidad

Las principales son:

  1. Kolmogorov-Smirnov –> (con corrección de Lilliefors) se prefiere cuando las muestras son grandes (> 50)
  2. Tests Shapiro-Wilk –> es la opción preferible cuando las muestras son pequeñas (< 50)

ACLARATORIA DEL P-VALOR

El valor p es un valor de probabilidad, por lo que oscila entre 0 y 1. El valor p nos muestra la probabilidad de haber obtenido el resultado que hemos obtenido suponiendo que la hipótesis nula H0 es cierta. Se suele decir que valores altos de p no permiten rechazar la H0, mientras que valores bajos de p sí permiten rechazar la H0.

En una prueba estadística, se rechaza la hipótesis nula H0 si el valor p asociado al resultado observado es igual o menor que un nivel de significación \(\alpha\) establecido arbitrariamente, convencionalmente 0,05 o 0,01

TEST DE KOLMOGOROV-SMIRNOV

El Kolmogorov-Smirnov asume conocida la media y varianza poblacional, lo que, en la mayoría de los casos, es imposible conocer. Esto hace que el test sea muy conservador y poco potente. Para solventar este problema, se desarrolló una como test Lilliefors, que asume que la media y varianza son desconocidas, estando especialmente desarrollado para testear la normalidad.

Por ejemplo, usaremos la Función ks.test()

    One-sample Kolmogorov-Smirnov test

data:  Howells$GOL
D = 0.049109, p-value = 0.238
alternative hypothesis: two-sided

Ahora usaremos la corrección del Lilliefors con la función lillie.test() del paquete “nortest

    Lilliefors (Kolmogorov-Smirnov) normality test

data:  Howells$GOL
D = 0.049109, p-value = 0.01274

TEST DE SHAPIRO-WIKS

La prueba de normalidad de Shapiro-Wilk es aplicable cuando se analizan muestras compuestas por menos de 50 elementos (muestras pequeñas). El test de Shapiro-Wilks plantea la hipótesis nula que una muestra proviene de una distribución normal.

Para este ejemplo usaremos la función shapiro.test()

    Shapiro-Wilk normality test

data:  Howells$GOL
W = 0.99503, p-value = 0.169

Si queremos saber si una variable contínua se ajusta a normal según una variable categórica, usaremos byf.shapiro()

    Shapiro-Wilk normality tests

data:  GOL by Sex 

       W p-value
F 0.9913  0.2254
M 0.9912  0.1922

DISTRIBUCIÓN DE PROBABILIDAD DE VARIABLES CONTÍNUAS

Transformaciones de las variables

  • Cuando las muestras no poseen una distribución normal, es factible efectuar ciertas transformaciones sobre estas muestras antes de aplicar un test t

  • Las correcciones en este caso deben ser las mismas para ambas muestras (grupos), por lo que es necesario decidir qué transformaciones producirán los mejores efectos para corregir las asimetrías en ambas distribuciones

  • El objetivo es generar distribuciones lo más normalizadas posibles (simétricas), de forma tal que la media y la desviación estándar se transformen en medidas útiles para generar inferencias

TRANSFORMACIONES DE LAS VARIABLES CONTÍNUAS

Las principales transformaciones que se ocupan para corregir la forma de una distribución son:

  1. Transformación por raíz cuadrada –>\(\sqrt[2]{x}\)
  2. Transformación logarítmica –> \(\log(x)\)
  3. Transformación recíproca negativa –> \(\dfrac{1}{x} \thinspace ó \thinspace \dfrac{1}{x^2}\)
  4. Transformación cuadrática o cúbica –> \(x^2 \thinspace ó \thinspace x^3\)

DISTRIBUCIÓN DE PROBABILIDAD DE VARIABLES CONTÍNUAS

DISTRIBUCIÓN T-TEST

La prueba t de Student, prueba t de estudiante, o T-Test, plantea el problema de estimar la media de una población normalmente distribuida cuando el tamaño de la muestra es pequeño.

Se aplica cuando la población estudiada sigue una distribución normal, pero el tamaño muestral es demasiado pequeño como para que el estadístico en el que está basada la inferencia esté normalmente distribuido.

Usó el seudónimo de Student para publicar el resultado de su propuesta de test, ya que contenía datos de una cervecería en donde trabajaba dado que se quería mantener en secreto todos los detalles de la producción y la relación de los empleados con la cerveza.

DISTRIBUCIÓN DE PROBABILIDAD DE VARIABLES CONTÍNUAS

DISTRIBUCIÓN T-TEST

  • Se utiliza en muestras de 30 o menos elementos
  • La desviación estándar de la población no se conoce
  • La distribución t es menor en la media y mas alta en los extremos que una distribución normal
  • Tiene proporcionalmente mayor parte de su área en los extremos que la distribución normal
  • Existe una distribución t para cada tamaño de la muestra, por lo que “Existe una distribución para cada uno de los grados de libertad”: gl = n-1

DISTRIBUCIÓN JI-CUADRADO

La distribución ji-cuadrado o chi-cuadrado es una distribución de probabilidad cuyo símbolo es \(\chi^2\). En concreto, la distribución chi-cuadrado es la suma del cuadrado de k variables aleatorias independientes con distribución normal.

La distribución chi-cuadrado tiene k grados de libertad. Por lo tanto, una distribución chi-cuadrada tiene tantos grados de libertad como la suma de los cuadrados de variables con distribución normal que representa.

La distribución chi-cuadrado también se conoce como distribución de Pearson.

La distribución chi-cuadrado se utiliza mucho en inferencia estadística, por ejemplo, se usa en el contraste de hipótesis y en los intervalos de confianza, comprobar la independencia entre variables y bondad de ajuste a una distribución teórica

DISTRIBUCIÓN JI-CUADRADO

Características de la distribución chi-cuadrado

  • La media de una distribución chi-cuadrado es igual a sus grados de libertad.

\(X \sim \chi_{k}^2\) –> La variable aleatoria X, tiene un distribución chi-cuadrado con k grados de libertad.

\(E[X] = k\)

  • La varianza de una distribución chi-cuadrado es equivalente al doble de los grados de libertad de la distribución

\(Vas(X)=2*k\)

  • Como consecuencia del teorema del límite central, la distribución chi-cuadrado puede aproximarse por una distribución normal si k es suficientemente grande.

  • La función de densidad: \(P[X = x]=\frac{(1/2)^{k/2}}{\Gamma(k/2)}x^{k/2}e^{-x/2}\)

  • La función de distribución acumulada: \(P[X \leq x]=\frac{\gamma(k/2,x/2)}{\Gamma(k/2)}\)

SESIÓN PRÁCTICA

Comenzaremos usando los datos craneométricos de William Howell que habíamos usado la semana pasada http://web.utk.edu/~auerbach/HOWL.htm

Primero descargamos/llamamos los paquetes que necesitamos en esta sesión

  • install.packages(“nortest”)
  • library(ggplot2)
  • library(nortest)

Comenzaremos evaluando la normalidad por el método Kolmogorov-Smirnov (c/corrección de Lilliefors)

cat("Esta base tiene ", nrow(Howells) ," datos")  #vemos cuantos datos tiene para saber cuál test aplicamos
Esta base tiene  441  datos
lillie.test(Howells$GOL)     #Como tenemos más de 50 datos aplicamos Kolmogorov-Smirnov
    Lilliefors (Kolmogorov-Smirnov) normality test

data:  Howells$GOL
D = 0.049109, p-value = 0.01274

Como el valor es menor a 0.05 concluimos que los datos no se ajustan a una distribución normal

SESIÓN PRÁCTICA

Procedemos a transformar nuestros datos para ajustarlos a una distribución normal.

Pero antes vemos cómo es la forma de la distribución, para saber cual transformación aplicamos

ggplot(data=Howells, aes(x=GOL)) + 
  geom_histogram(aes(y = ..density..), col='black', fill= "lightblue", binwidth=3)+
  geom_density(colour = 2)+theme_light()

SESIÓN PRÁCTICA

Resultados de la transformación

Transformación P-Valor
lillie.test(sqrt(Howells$GOL)) 0.0188100
lillie.test(log(Howells$GOL)) 0.0155900
lillie.test(1/(Howells$GOL)^2) 0.0015570
lillie.test(1/(Howells$GOL)^3) 0.0001288
lillie.test(Howells$GOL^2) 0.001231
lillie.test(Howells$GOL^3) 0.00007347
lillie.test(Howells$GOL^4) 0.000002754

SESIÓN PRÁCTICA

Gráfico Q-Q (quantile-quantil)

#library(ggplot2)
ggplot(data=Howells, aes(sample = GOL)) + 
  stat_qq() + stat_qq_line(col="red")+
  xlab('Teoricas')+ylab('Observadas')+theme_light()

SESIÓN PRÁCTICA

TEST DE SHAPIRO-WIKS

Aunque ya sabemos que tenemos más de 50 datos, igual podemos aplicar esta prueba, ya que automáticamente, se ajusta según el teorema del límite central.

shapiro.test(Howells$GOL)
    Shapiro-Wilk normality test

data:  Howells$GOL
W = 0.99503, p-value = 0.169

Para evaluar el ajuste a la normal de nuestra variable contínua (GOL), según una variable categórica (SEX), usaremos byf.shapiro del paquete RVAideMemoire (previamente hay que instalarlo)

#install.packages("RVAideMemoire")   #hay que instalar este paquete previamente
library(RVAideMemoire)
byf.shapiro(GOL~Sex, data=Howells)
    Shapiro-Wilk normality tests

data:  GOL by Sex 

       W p-value
F 0.9913  0.2254
M 0.9912  0.1922

SESIÓN PRÁCTICA

TEST DE SHAPIRO-WIKS

La función byf.shapiro, es exactamente lo mismo que:

GOL_F <- Howells[Howells$Sex == "F" , ]
shapiro.test(GOL_F$GOL)
    Shapiro-Wilk normality test

data:  GOL_F$GOL
W = 0.99135, p-value = 0.2254
GOL_M <- Howells[Howells$Sex == "M" , ]
shapiro.test(GOL_M$GOL)
    Shapiro-Wilk normality test

data:  GOL_M$GOL
W = 0.99116, p-value = 0.1922

Tarea Corta N°2

Evaluar Normalidad mediante gráficos y pruebas estadísticas.

Para esta tarea, usaremos el data set osteométrico de Goldman de libre uso. http://web.utk.edu/~auerbach/GOLD.htm

1.- Para esta tarea, van a seleccionar tres variables:

  • Dos variables contínuas y otra categórica (Sex ó Location)

2.- Dependiendo de su selección, hay que hacer un preproceso de limpieza:

  • Eliminar los vacíos (NA)
  • Factorizar las variables categóricas
  • Agregar las etiquetas de las categorías en caso que corresponda
  • Separar el texto en dos columnas y luego factorizar, en caso que corresponda

Tarea Corta N°2…continuación

3.- Realizar el siguiente proceso estadístico

  • Para las dos variables contínuas realizar gráfico de histograma y Q-Q plot
  • Realizar los test de Shapiro-Wilk y Kolmogorov-Smirnov (c/corrección de Lilliefors) y evaluar cual dá mejor
  • De ser necesario haga las transformaciones pertinentes y repita los test.
  • Finalmente use la función byf.shapiro() para evaluar la normalidad de cada una de las variables contínuas por la variable categórica seleccionada (Sex ó Location)
  • Realizar un pequeño comentario/análisis de los resultados obtenidos

Tarea Corta N°2…continuación

Estructura del reporte

  1. Título del Reporte
  2. Nombre de los integrantes
  3. Variables seleccionadas
  4. Resultados
    • Indicar brevemente el preproceso de limpieza
    • Gráfico de histograma de la variable contínua 1 y 2
    • Gráfico de q-q plot de la variable contínua 1 y 2
    • Resultados de Shapiro-Wilk y Kolmogorov-Smirnov (c/c Lilliefors)
    • Resultados de las transformaciones
    • Repetición de los test en caso de ser necesario
    • Resultados del byf.shapiro() de las variables continuas 1 y 2 por la categórica
  5. Análisis y conclusiones
  6. Códigos Utilizados